adamw

斯坦福：优化器「诸神之战」？AdamW凭「稳定」胜出

斯坦福：优化器「诸神之战」？AdamW凭「稳定」胜出

随着模型规模迅速扩大，预训练已成为计算密集型任务的典型代表，在大模型研发中往往是最主要的计算开销。在这种背景下，优化器的设计直接关系到收敛速度与计算成本。

斯坦福诸神之战 muon adamw kron 2025-09-07 21:04 1

震撼实锤！清华姚班校友揭1.4×加速陷阱：AI优化器为何名不符实？

震撼实锤！清华姚班校友揭1.4×加速陷阱：AI优化器为何名不符实？

为了降低大模型预训练成本，最近两年，出现了很多新的优化器，声称能相比较AdamW，将预训练加速1.4×到2×。但斯坦福的一项研究，指出不仅新优化器的加速低于宣称值，而且会随模型规模的增大而减弱，该研究证实了严格基准评测的必要性。

清华震撼校友 muon adamw 2025-09-06 19:51 2

震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？

震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？

为了降低大模型预训练成本，最近两年，出现了很多新的优化器，声称能相比较AdamW，将预训练加速1.4×到2×。但斯坦福的一项研究，指出不仅新优化器的加速低于宣称值，而且会随模型规模的增大而减弱，该研究证实了严格基准评测的必要性。

清华震撼校友 muon adamw 2025-09-06 19:13 2